Embedding words in vector space is a fundamental first step in state-of-the-art natural language processing (NLP). Typical NLP solutions employ pre-defined vector representations to improve generalization by co-locating similar words in vector space. For instance, Word2Vec is a self-supervised predictive model that captures the context of words using a neural network. Similarly, GLoVe is a popular unsupervised model incorporating corpus-wide word co-occurrence statistics. Such word embedding has significantly boosted important NLP tasks, including sentiment analysis, document classification, and machine translation. However, the embeddings are dense floating-point vectors, making them expensive to compute and difficult to interpret. In this paper, we instead propose to represent the semantics of words with a few defining words that are related using propositional logic. To produce such logical embeddings, we introduce a Tsetlin Machine-based autoencoder that learns logical clauses self-supervised. The clauses consist of contextual words like "black," "cup," and "hot" to define other words like "coffee," thus being human-understandable. We evaluate our embedding approach on several intrinsic and extrinsic benchmarks, outperforming GLoVe on six classification tasks. Furthermore, we investigate the interpretability of our embedding using the logical representations acquired during training. We also visualize word clusters in vector space, demonstrating how our logical embedding co-locate similar words.
translated by 谷歌翻译
A real-world application or setting involves interaction between different modalities (e.g., video, speech, text). In order to process the multimodal information automatically and use it for an end application, Multimodal Representation Learning (MRL) has emerged as an active area of research in recent times. MRL involves learning reliable and robust representations of information from heterogeneous sources and fusing them. However, in practice, the data acquired from different sources are typically noisy. In some extreme cases, a noise of large magnitude can completely alter the semantics of the data leading to inconsistencies in the parallel multimodal data. In this paper, we propose a novel method for multimodal representation learning in a noisy environment via the generalized product of experts technique. In the proposed method, we train a separate network for each modality to assess the credibility of information coming from that modality, and subsequently, the contribution from each modality is dynamically varied while estimating the joint distribution. We evaluate our method on two challenging benchmarks from two diverse domains: multimodal 3D hand-pose estimation and multimodal surgical video segmentation. We attain state-of-the-art performance on both benchmarks. Our extensive quantitative and qualitative evaluations show the advantages of our method compared to previous approaches.
translated by 谷歌翻译
基于网络形态的神经体系结构搜索(NAS)是最有效的方法之一,但是,知道何时何地添加新的神经元或删除非功能功能的方法通常留给黑盒增强学习模型。在本文中,我们提出了一种新的基于网络形态的NAS,称为NOISY启发式NAS,该NAS使用了从手动开发神经网络模型中学到的启发式方法,并受到生物神经元动力学的启发。首先,我们随机添加新的神经元,并修剪一些神经元,以选择最佳的合身神经元。其次,我们使用隐藏单元与输入输出连接数的关系控制网络中的层数。我们的方法可以在线增加或降低模型的容量或非线性,该模型由用户指定了一些元参数。我们的方法在玩具数据集以及MNIST,CIFAR-10和CIFAR-100等实际数据集上概括了。性能与具有相似参数的手工设计架构Resnet-18相当。
translated by 谷歌翻译
胎儿镜检查激光​​光凝是一种广泛采用的方法,用于治疗双胞胎输血综合征(TTTS)。该过程涉及光凝病理吻合术以调节双胞胎之间的血液交换。由于观点有限,胎儿镜的可操作性差,可见性差和照明的可变性,因此该程序尤其具有挑战性。这些挑战可能导致手术时间增加和消融不完全。计算机辅助干预措施(CAI)可以通过识别场景中的关键结构并通过视频马赛克来扩展胎儿镜观景领域,从而为外科医生提供决策支持和背景意识。由于缺乏设计,开发和测试CAI算法的高质量数据,该领域的研究受到了阻碍。通过作为MICCAI2021内窥镜视觉挑战组织的胎儿镜胎盘胎盘分割和注册(FETREG2021)挑战,我们发布了第一个Largescale Multencentre TTTS数据集,用于开发广义和可靠的语义分割和视频摩擦质量algorithms。对于这一挑战,我们发布了一个2060张图像的数据集,该数据集是从18个体内TTTS胎儿镜检查程序和18个简短视频剪辑的船只,工具,胎儿和背景类别的像素通道。七个团队参与了这一挑战,他们的模型性能在一个看不见的测试数据集中评估了658个从6个胎儿镜程序和6个短剪辑的图像的图像。这项挑战为创建通用解决方案提供了用于胎儿镜面场景的理解和摩西式解决方案的机会。在本文中,我们介绍了FETREG2021挑战的发现,以及报告TTTS胎儿镜检查中CAI的详细文献综述。通过这一挑战,它的分析和多中心胎儿镜数据的发布,我们为该领域的未来研究提供了基准。
translated by 谷歌翻译
果树的休眠修剪是维持树木健康和确保高质量果实的重要任务。由于劳动力的可用性降低,修剪是机器人自动化的主要候选者。但是,修剪也代表了机器人的独特困难问题,需要在可变照明条件下以及在复杂的,高度非结构化的环境中进行感知,修剪点的确定和操纵。在本文中,我们介绍了一种用于修剪甜樱桃树的系统(在平面树建筑中,称为直立的果实分支配置),该系统整合了我们先前关于感知和操纵的工作的各种子系统。最终的系统能够完全自主运行,并且需要对环境的最低控制。我们通过在甜蜜的樱桃果园中进行现场试验来验证系统的性能,最终取得了58%的削减速度。尽管不完全稳健,并且需要改善吞吐量,但我们的系统是第一个在果树上运行的系统,并代表了将来可以改进的有用的基础平台。
translated by 谷歌翻译
仅通过改变我们想要的东西是一种在生成的对抗网络(GANS)中的长期研究问题,用于图像操纵。只依赖于全局生成器的大多数现有方法通常都会遭受不需要的属性以及目标属性。最近,由处理整个图像的全局网络和专注于本地部件的全局网络的分层网络都显示成功。然而,这些方法通过围绕稀疏面部关键点围绕的边界盒提取局部区域,这些盒子是非微分,不准确和不切实际的。因此,解决方案变为次优,引入了不需要的人工制品,从而降低了合成图像的整体质量。此外,最近的一项研究表明面部属性和局部语义区域之间的强烈相关性。为了利用这种关系,我们设计了一个统一的语义细分和分层GAN的架构。我们框架的独特优势在于,在前向传递语义分割网络条件的情况下,生成模型以及来自分层GAN的后向通行梯度将传播到语义分段网络,这使我们的框架成为端到端可分辨的体系结构。这允许两个架构彼此受益。为了展示其优势,我们对两种挑战性面部表情翻译基准,影响网络和RAFD以及两个受欢迎的体系结构,Bisenet和Unet的语义细分基准,Celebamask-HQ的方法评估了我们的方法。我们对脸部语义分割和面部表达式操作任务的广泛定量和定性评估验证了我们对现有最先进的方法的工作的有效性。
translated by 谷歌翻译
语义引导的条件生成的对抗网络(CGANS)已成为近年来面对面编辑的流行方法。然而,大多数现有方法将语义掩模引入发电机的直接条件输入,并且通常需要目标掩模在RGB空间中执行相应的转换。我们提出Secgan,一种新的标签引导,用于利用语义信息编辑面部图像,无需指定目标语义掩模。在培训期间,Secgan有两个发电机分支机构和鉴别者并行运行,有一个训练,用于翻译RGB图像和另一个用于语义面具。要以互利的方式桥接两个分支机构,我们介绍了一个语义一致性损失,限制了两个分支以具有一致的语义输出。虽然在训练期间需要两个分支机构,但RGB分支是我们的主要网络,并且不需要语义分支。我们的结果在Celeba和Celeba-HQ上表明,我们的方法能够以更准确的属性生成面部图像,在目标属性识别率方面表现出竞争性基线,同时维持自我监督的FR \ {E} CHET Inception等质量指标距离和成立得分。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
连接的决策边界用于不同区域,例如图像分割,聚类,α形或在ND空间中定义区域。但是,在机器学习文献中缺乏使用神经网络生成这种连接的决策边界的方法。在探索此类方法时,我们发现可以通过阈值来生成这种决策边界,称为INVEX函数。我们发现INVEX函数与区域和歧管的连接性之间的联系,并将连接性和位置应用于解释ND-DATA空间的基础。在本文中,我们提出了两种使用神经网络构建INVEX函数的方法。第一个是基于直觉开发的,并使用我们的方法(梯度剪辑梯度惩罚)来限制该函数。第二个是基于关于InVex函数与可逆函数组成的关系的稍后发现。使用连接性作为基本解释方法,我们创建基于连接的区域的分类器。我们表明,多个基于集合的分类器可以近似任何分类功能。在“实验”部分中,我们首先将INVEX函数用于回归和分类任务,以可视化2D玩具数据集中的全局最优性和连接设置。此外,我们使用我们的方法使用模型集合以及在大型数据集上使用单个模型进行分类。实验表明,基于连接的基于集合的分类器对普通神经网络分类器没有明显的缺点。我们还评估了INVEX功能和连接集的各种属性。对这项工作的总体探索表明,INVEX功能对于理解和应用输入空间的局部性和连接性至关重要,这对于多个任务有用。
translated by 谷歌翻译